Проект: Візуалізація даних про фільми та серіали

Автор: Галецька Софія

Імпортування необхідних бібліотек

Робота з даними

Візуалізації : код

Візуалізації : графіки

Мені було цікаво чи є залежність між тривалістю фільму та його оцінкою(рейтиргом), тому я вирішила візуалізувати цей графік, як Scatter.

Оскільки ця задача належить до категорій Розподіл та Кореляція, то альтернативними варіантами могли б бути Heatmap, Correlogram та інші. Я обрала Scatter, оскільки таким чином можна наочно побачити кількість фільмів на графіку.

Крім цього, я виділила інтервал 80-140хв (Тривалість) та 7-9 (Рейтинг) та відобразила його на збільшеному графіку збоку, який можна зумити та дізнатися, які саме фільми в нього потрапили. Також на ньому можна побачити не тільки рейтинг цих фільмів, але й кількість голосів.

Недоліком такого типу представлення може бути хіба що те, що з нього не одразу можна сказати чи корелють ці два показники, а також він може здатися трохи шумним, але для того, щоб трохи нейтралізувати цей недолік, я зробила виділення певного інтервалу та додала його збільшену копію.

З цього графіку можу зробити висновок, що більшість фільмів були зняти в проміжку 80-140хв, а також, що переважна більшість фільми, які тривають довше 140 хвилин мають рейтинг 5 та більше.

Наступний графік я хотіла створити для того, щоб побачити розподіл фільмів та серіалів в розрізі років та рейтингу.

Я обрала спосіб схожий до попереднього графіку, проте тут я виділяю тип (Фільм, Серіал) кольором та показую кількість голосів розміром, також я додала дропдаун селектор з жанрами для того, щоб можнабуло оцінити фільми та серіали на графіку в зажежності від їхнього жанру та зробити висновки, а також це дозволило не перевантажувати один графік інформацією.

Альтернативи та недоліки такі ж, як і на минулому графіку.

Також я додала інтерактивність для цього графіку, тобто його можна зумити та якщо навсети мишку на кульку то можна буде дізнатися назву фільму або серіалу.

З цього графіку я можу зробити певні висновки, наприклад, що в деяких жанрах переважають Фільми, а в інших - Серіали, а також, що Серіали в деяких жанрах переважно отримують вищі оцінки ніж, Фільми, проте за фільми переважного голосує більше людей, ніж за серіали. І загалом, можна оцінити фільми та серіали різного жанру впродовж всього часу, те коли почали з'являтися Фільми та Серіали певного жанру та те, як їх оцінили в залежності від року випуску.

Цей графік мав показати кількість фільмів та серіалів в розрізі жанрів.

Я розглядала також схожий до цього спосіб представлення, який відрізнявся тільки тим, що тип(Фільм, Серіал) позначався кольором, проте цей варіант має великий недолік. Через те, що в деяких жанрах дуже мало фільмів та/чи серіалів, їх просто не було б видно, а зменшити скейл графіку я не можу через велику різницю в кількості серед жанрів. Між іншим, мальньку копію схожого графіку таким способом можна побачити чуть нижче, вона також слугує селектором, тобто з її допомогою можна вибрати інтервал років за які потрібно показати кількість серіалів та фільмів. Крім цього я додала, ще один селектор, який дозволяє вибрати інтервал рейтингу і так само, як і графік над ним - впливає на основний графік, відсіюючи фільми та серіали, які не потрапляють до інтервалу.

За замовчуванням, графік показує кількість фільмів та серіалів за весь час та всіх рейтингів.

З цього графіку я можу зробити такі висновки:

І цей список можна продовжувати, якщо використати фільтри-селектори.